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Паралельний алгоритм обчислення циклично! згортки 


Предложена оптимизация алгоритма вычисления циклической свертки длины № =2" на основе быстрого 
преобразования Уолша (БПУ). Оптимизация заключается в использовании свойства предварительной 
корректировки сигнала длины М сигналом длины М/2 для получения суммарного результата БПУ 
двух сигналов на основе одного БПУ длины М. За счет этого уменышается число БПУ более чем в два 
раза, что уменьшает сложность по числу операций сложения и вычитания. Показано, что алгоритм 
поддается распараллеливанию. Алгоритм проиллюстрирован на реализации сверток длины 4 и 8. 
Приведены оценки сложности при параллельном и последовательном вычислении. 

Ключевые слова: многоразрядная арифметика, циклическая свертка, многоразрядное умно- 
жение. 
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Запропонована оптимвзаця алгоритму обчислення циклчно! згортки довжини № =2" на основ! швидкого 
перетворення Уолша (ШПУ). Оптимзащя полягае у використанн! властивост! попереднього корегування 
сигналу довжини М сигналом довжини М/2 для отримання сумарного результату ШПУ двох сигнал1в 


на основ! одного ШПУ довжини М . За рахунок цього зменшуеться число ШПУ @1лыш ниж у два рази, 
що зменшуе складнсть за юльк1стю операшй додавання та в1дн!мання при посл1довному обчисленн1. 
Показано, що алгоритм шддаеться розпаралелюванню. Алгоритм пролюстровано на реалзаци згорток 
довжини 4 и 8. Наведен! оцнки складност! при посл1довному та паралельному обчисленн1. 

Ключов! слова: багаторозрядна арифметика, циклична згортка, багаторозрядне множення. 


Введение 


Аппаратная часть совершенствуется с каждым годом. Применяются новые техно- 
логии и методы, которые повышают производительность. Одновременно с повышением 
быстродействия повышаются требования ко времени выполнения алгоритмов шиф- 
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рования-дешифрования, которые оперируют с более длинными ключами (не менее 
1024 бит). Быстродействие операции умножения является актуальной задачей, так как 
от быстродействия данной операции в основном зависит время выполнения операций 
в криптоалгоритмах. 

Операция быстрого умножения может быть реализована с помощью алгоритмов 
вычисления свертки. Данная работа является продолжением работ [1-5] по вычислению 
циклической свертки © целью максимального распараллеливания всех шагов алгоритма 
и повышения эффективности алгоритма. 


Постановка задачи. На основе БПУ вычислить циклическую свертку К» разряд- 


ностью М ‚ где М№М=2", п>0 - целые, двух последовательностей Ху и У,, используя 
№М-1 
следующее выражение К, =Х, ®У,, К, = (1..7), И = аа ‚ К=О, М-1, 
М 
р=0 


при последовательном выполнении на одном процессоре и при параллельном выпол- 
нении на Р процессорах (графического ускорителя). 

Обозначения. 

Последовательности длины М могут быть представлены в виде векторов: 


№ Уо 
Хх 

м 1 ре У 
Хм = 


Далее будет использоваться именно это представление. 
Х =(Х,7) обозначает, что к элементам Х добавляются элементы 7 справа. 


Соответственно длина Х увеличивается на число элементов 7. 
((Хи),) обозначает, что в Х рассматривается 1-я секция. Считается, что Х 


разбит на секции длины М = 2“, где 4>0 - целое. 

х, обозначает 1-й элемент Х. При этом вектор Х считается полнозаполненным 
без учета мнимой разбивки на секции разрядностью степени двойки. 

В выражениях последовательность операций будем разбивать на группы сим- 
волом ‘;‘. Группы выполняются в обычном порядке слева направо. Операции внутри 
группы разделяются запятой и выполняются в обратном порядке — справа налево. 
Если операцию обозначить номером ее выполнения, то получим строку, которая опре- 
деляет порядок выполнения операций: 

2, 1; 6, 5, 4, 3; 8, 7. 

Введем следующие операторы: Е, О, 0, Г, Н,ъ5,А, И, В (Е- Еуеп (чет- 

ный), О-— Оа4 (нечетный), И —Ир (вверх), Г. — [оу (младший), Н — Шей (старший), 
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5 — бирятисЕ (вычитание), А - А44Шоп (добавление), М — Иа[5й (одна итерация пре- 
образования Уолша), В — Ви туег5е отаег (бит-инверсная перестановка) и обозначим 
их следующим образом: 


[ЕС [Она [АХ = жен Еж = 0, М2 51; 


циклический сдвиг элементов вверх — У, =И(Ху), у, = Жн). К =0,М-1:; 
ое = Ей) -9(2,), АС) = ЕС )+ О); 
Е(/,) < АХ) = Е(Х,)+ОСХ 
исх. |8) <= АК) = Е) +0] 
0(7,) < 5 (Ху) =Е(Х)-О(Ху) 
Проиллюстрируем введенные операторы для случаев М = 4,8: 
№ р У № ^4 
х х х х 
Е(Х,)=| | 0(хо=| 3 |0) =|* |, мхо=| “|, Но=| 
4 № Уз > № 
№ ^ Уо Хз 7 
мол У + У, № ^ № 
х-х х+х х 
= 2 3 АС.) = ут (Хх, )= 0 1 вое 2 
4 № Уд + У Хх, + Х, | 
6 № УЕ Х> — № Хз 


Матрицы дискретного преобразования Уолша (с упорядочиванием по Пели), 
которые необходимо отличать от оператора У/ ‚ обозначим следующим образом: 


г д. фе та 
Со м ак 
т Е: Г ата в № 
И Ее ь еп ыеаь № 
Е а 2 ее В 19 
Вар =. 1 О ЕЮ 

| 

| 


р Ро 


Лемма 1. При вычислении БПУ сигнала Х „, где М =2" , п>0 -— целые, опера- 
тор длины М№ выполняется и раз над вектором Ху. 
Доказательство. Вычисление БПУ можно организовать следующим образом: 


ВХ и),)) 
В(Н(Хи),)) 


р < | ‚ (Хи),) < ВИС(Хи),)), 1=0, 21-1, М =2”*, 
1=0,п-1. 


Вычисление БПУ длины М = 2* =4 согласно предыдущей формуле имеет вид: 
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ВХ.) 
ь В(Н(КХ,))) |. ВС (АХ .))) |. ВХ.) |. 
Хак ХХ |, Х, = ВОСХ,)). 
вхН(Х,))) ВО(Н(Х,))) В(Н(Х,)) 
В(Н(Н(Х,))) 


Так как оператор В (бит-инверсная перестановка) не переставляет элементы, 
если длина вектора равна 1 или 2, то оператор В и сопутствующие ему операторы 


Г., Н могут быть опущены в предыдущих выражениях, кроме Х ‚ < ВИ(Х,)). Так 
Ир.) 


как \(7,) = [о 


| ‚ то окончательное выражение для вычисления БПУ длины 4 


будет Хх , < "(ВИ(Х,))), где И применяется по всей длине вектора. 
Более детально данное преобразование (справа налево) представлено ниже: 


о а ва, ЕЯ ЖЕ 
х х+х -х-х х+х х+х х-х 
0 1 2 Е] 2 Е] 2 3 [0] 1 
ры <" : < В 
Е Я а Е 
ЖЕ НЕЙ, ее < ар 
а - № 
х-х х 
[0 1 1 
— ИХ, = 
ре х, 
№ — № ^з 


ВЬЦГУ длины М = 8 оператор И также можно применять по всей длине: 
: ВМХ, )) || В(ЦХ,)) || © 
И т А Бе ке х-- ||, Х, < ВОУ(Х,)). 


В работе [6] используется алгоритм с высоким уровнем распараллеливания и 
сохранением структуры графа преобразования Уолша с различными системами упоря- 
дочивания по Пели, Уолшу — Качмажу и преобразование Уолша с четным — нечетным 
упорядочиванием, которые требуют меньшее число перестановок для ускорения рас- 
параллеливания. 

Вычисление БПУ длины М№ = 16 будет следующим: 


ВЫХ) ВАХ) 
| ВН(КХь)) || - В(Н(КХ 
ЖИ | а ее — 
В(КН(Х в )) В(КН(Х в ))) 
В(Н(Н(Х В(Н(Н(Хь)) 


, ВХ, )| . ВХХ в) 
Хв<=|- | = 
В(Н(Х ь)) 


а № | ‚ Хк < ВХ). 
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Продолжая по индукции, можно показать, что, применяя В, Г. и Н , можно орга- 
низовать вычисление таким образом, что И на каждой итерации применяется над 
всеми элементами. Лемма доказана. 

Следствие. При параллельном вычислении БПУ длины М№М=?2”, где п>0 — 
целое, каждый из № процессоров выполнит только и операций сложения (вычитания). 

Перед тем как перейти к описанию нового алгоритма, рассмотрим следующее 


свойство сложения БПУ сигналов разной разрядности. 
М-1 М /2— 
Лемма 2. Если сигналы Им = уз 2, Уно у у, 2” ‚где © — длина слова 
К=0 


в битах, М =2’, р>0, формируют сигнал К/„ Е в: вида: г =25, +, 
К=0 

К ИЕ М М 
2у,, 5 К+Е-| — |, КЕО, М/2-—1, где = —,#=2", 1<64<-—,т>0, 

1 24 2 
р М-! м/2—1 _ М— 
то БПУ Им = о 2”, Умв = уз 2 А = У. -2° связаны следующими вы- 
ражениями: 

#=28. +29, #й.=22,, дека | К=0, М/2—1.1 
Ч 


Доказательство. Заметим, что выражения 5=К+1.| К/! |, а=К+а:|1+К/а | 


М 
имеют одинаковую структуру, С учетом ТОГО, ЧТО ТИ Ч взаимосвязаны =— и 

24 
определяют длину последовательности значений идущих по порядку (табл. 1). 


Таблица 1 — Зависимость значений 5 и 4 от значений 1, а, М 


= |0 | 34 о. 
М 8 1=4 5 Е 
и 
М -8 Г 5 04 |5 
—. а=2 а 25.32 |265 |7 
тв. 1=1 5 о |214 [6 
р 4=4 |а т 
1=8 5 вЫ И 
М =16 
а=1 а Е 13 | 15 
1=4 |5 01123 10| и 
ИЕ а=2 а |236 7 14 | 15 
1=2 |5 о14 5 12 | 13 
И. а=4 а |456 7 14 | 15 
мы 2=1 5 о 1214 [6 12 | 14 
ы а=8 |а 891101 14 | 15 


Рассмотрим результаты сложения БПУ сигналов Й, = (0, 0, 0, 0, 0, 0, 0,0) и 


У, = (1,4, 9, 25). Найдем сначала БПУ сигнала У, . 
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Е м чи 39 
ль АЕ 2 
И и. —19 

ГЕН | 25 13 


от таат 0 с 
и] 1 2 орга 4 78 4 
У: ет, р. а 9 0 0 
о О к Е. а, 
К Ч У == = =2. 
а И 0 0 
ый. | | Е ре: ЗВ 538 4, 
ва ее а Де аа ЯН 0 0 
И бам. 45 чар 2 ЧС еО5 26 й. 
Г», РГ 50 Го Гм | ГиГо [о 
У 4 0 0 У = 0 0 
— —1 78 $, у 4 0 0 
ны И, О де | И 
ь т у, о О р ‘19 78 $, 
у 25 0 0 -, -9| |-58 $ 
—, 20 |238 $, у, 25| |-38 $, 
| |-25| [26] |5, | |-25] | 26] |%| 


Изучив исходные данные и результат выражений Г - Г г Г “, видим, что, 
прибавив определенным образом элементы сигнала У, к элементам сигнала 7, ‚ одно- 
временно с вычислением преобразования Уолша сигнала Я. вычисляется преобразо- 
вание сигнала у. Необходимо также использовать поправочный коэффициент 2 для 


^ = ^ —о ^ = ^ 
Г, так как № , К `, К ` содержат удвоенное значение У, . 
Указанное в лемме свойство сохраняется при больших разрядностях свертки, 
рассматривая по индукции. Лемма доказана. 


Примечание 1. Другими словами, 4 — длина секции К», к которой последова- 


тельно добавляются элементы из Уир . 


Примечание 2. В представленном алгоритме используется только случай при 
4 =1 (см. также Шаг 96 алгоритма). 

Вычисление циклической свертки разрядностью М = 4 на основе БПУ. В работе [3] 
приведен метод вычисления циклической свертки с использованием БПУ, основанный 
на вычислении сверток половинной длины. Алгоритм [3] осуществляет разбиение до 
сверток длины № =4, для вычисления которой достаточно 5 операций однословного 
умножения. Далее приведен новый алгоритм вычисления свертки на основе БПУ 
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длины М = 4, при котором обратное БПУ выполняется в качестве последней операции, 
что гораздо удобнее при реализации параллельного алгоритма: 


^ ^ Х, <— У, р Х, 
1 <— 5(О(Х.))- А(О(’,)), , 
У < И, -У, 

где Х,, У, — входные сигналы; №, — результат вычисления циклической свертки 
сигналов Х, и У,; 1 = (х —х,) (У -У,) = му +^, У, - ХУ, — ХУ. 

Использование операторов 5, А над векторами Х,, У, для вычисления {# яв- 
ляется резервом оптимизации, так как дает возможность не сохранять Х, и .. 

Алгоритм 1. Реализация операции циклической свертки двух последовательностей 
длины М = 2" с использованием БПУ и параллельных вычислений. 

Параметры: Ху, У, -— последовательности длины М =2" ‚ гдеп>3, п - целое. 

Результат: Ку <- Ху ©У, - циклическая свертка сигналов Хх, У,. 

Шаг 0. Инициализация. Х < ((Х_„)о) < Ху; У < (У „),) < У. 

Шаг [. БПУ начальной секции ((Ху)). (Ху) ) < И, (Ху). 


Шаг 2. ДПУ остальных секций вектора Х как линейные комбинации секций Х. 
х < (Х, Уи) › Уир = (Хи ),)-Н(Хи),), 


7=0,Т-1, М =2"", Т=3', 1=0,п-3.“ 
Шаг 3. БПУ секций вектора У (за исключением двух последних итераций). 
Шаг За. Для с 0 поп-3 
Шаг 36. У (Ур), Ур -И(Е@,))-Е(и), 


ВГУ, ),)) 
Шаг 3в. (Уи );) — ВН) ‚ (У„),) < ВЫ (Си )), 
Шаг 3г. 2 — (1), 1=0,Т-1, М =2>",Т=З. 


Шаг 39. Конец цикла по 1 т 


Шаг 4. Последние 2 итерации БПУ. ((У,),) < (ВИ ((У,),))), 7=0, | 


(см. Лемму 1). 
Шаг 5. Дополнительные секции 
ХАРО,., < 5(О(Х „.)), УАБО.., < А(О(Т„,)). 


Шаг 6. Поэлементное умножение основных секций. К Е 2.Х .У 


4.3"? 4.372 * 


Шаг 7. Поэлементное умножение дополнительных секций. 
КАР, — ХАРО,., -УАРО 


31-2 в. 
Шаг 8. Подготовка к вычислению сверток длины 4. 


п +гаа4,, }=0, 3"? —1.^ 


4}+1 4+1 2 


— га4Ч ‚, г, 3 


1+3 
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Шаг 9. Подготовка к вычислению сверток длины 8 и больше. 
Шаг 9а. Для 1 с п-3 до 0 шаг-1. 


Шаг 96. ((Ки );) <— а. Ди < (Ки );) р 


1 т п- 1 
Ум < 5" (Кир), 1=0,Т-1, М=2 Т=3 


Шаг 9в. Конец цикла по 1. 
1 1 
Шаг 10. Вычисление ОБПУ. К» <- ИХ = (Ку). 


Примечание 3. Длина Х (или У) после каждой итерации по Г увеличивается 


1+1 
и равна 2” (8 . По завершении цикла по 1 (1=п-3) длина Х (или У) равна 


4.3"? (см. Лемма 4 и Теорема 1). 


Примечание 4. В алгоритме г соответствует номеру итерации, ] — номеру обра- 


батываемой секции на итерации #. При обработке У мнимо разбивается на секции 


одинаковой длины М =2"". При вычислении Х и К на итерации 1 рассматриваются 
секции длины М и М |, 2. 


Ниже приведена схема вычисления свертки ДЛИНЫ № =8 на основе приведен- 


ного алгоритма. 


НЕБЕ, 8 
р мг М, М 
р о ев м 


Рисунок 1 — Схема вычисления свертки длины М =8 на основе Алгоритма 1 


Число операций при последовательном выполнении алгоритма. 
Лемма 3. При последовательном вычислении свертки сложность По числу одно- 


> —2 
словных операций умножения равна 5.3"^. 
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Доказательство. Согласно Шагам 6 и 7 Алгоритма | число элементов основных и 


дополнительных секций при поэлементном умножении равно 4.3”” и 3" * соответ- 
ственно. Лемма доказана. 


Лемма 4. При последовательном вычислении свертки сложность по числу одно- 
словных операций сложения (вычитания) равна 5.3” "+ (п-1).2” для нахождения 


элементов в основных Х,„., и дополнительных ХАРО,,, секциях. 


Д оказательство. В табл. 2 показана зависимость числа основных секций ОТ ДЛИНЫ 
№ входной последовательности и определено число итераций, необходимых для по- 
строения основных секций 2 


Таблица 2 — Итерационное вычисление вектора длин основных секций Х 
при вычислении сверток длины М =2", п=3,4,5,6 (Шаг 2) 


1 А =8, = 3 
О | 8,4 
. 1 = = 
№=16,п=4 ео 
64,32 
Е сы аа 32,32,32, 16,16,16 
Е 39-5 16,16,16, 16,16,16, 16,16,16, 8,8,8, 8,8,8, 8,8,8 
| И 8,8,8, 8,8,8, 8,8,8, 8,8,8, 8,8,8, 8,8,8, 8,8,8, 8,8,8, 
0 | 32,16 8,8,8, 
1 | 16,16,16, 8,8,8 4,4,4, 44.4, 44.4, АДД, ЧАД, ААА, АДА, АДА, 4, 
2 | 8,8,8, 8,8,8, 8,8,8, 4,4,4, 4.4.4, 
4,4,4 


Из табл. 2 видно, что на каждой итерации число элементов увеличивается в 
3/2 раза, так как вычисление каждой свертки длины М (согласно методу Питасси [1]) 


основано на трех свертках ПОЛОВИННОЙ ДЛИНЫ М й 2. Число элементов Х на последней 


итерации п —3 равно: 
3 (п-3)-+1 
2. (5 =. 9”: 
2 


Алгоритм БПУ используется только для вычисления ДПУ начальной основной 


секции Х длины № =?2", для чего необходимо п: № одноразрядных операций сло- 


жения (вычитания). ДПУ всех остальных Х’„. и ХАРО,, секций вычисляются как 


4.3" 
линейные комбинации ДПУ начальной основной секции Х на Шагах 2 и 5 с исполь- 
зованием операторов Ё.,, Н, 5 и О, что является резервом оптимизации и позволяет 
уменьшить число вычислений ДПУ на треть, что существенно для длинных сверток. 
С учетом числа операций для вычисления БПУ начальной секции длины № 
общее число одноразрядных операций сложения (вычитания) для вычисления секций 


в Х,„.‚ (Шаги Ти 2) будет равно 4.3"? — М+п.М№М=4.3"?+(п-1.2”, где М=2”, 
п > 0 -— целое. При применении операторов 5 и О (каждый из которых уменьшает 


Х 13 В Два раза) на Шаге 5 для вычисления секций ХАРО,., необходимо 3”? опе- 


5 г: 
рации вычитания. Таким образом, общее число одноразрядных операций сложения 
(вычитания) составляет 4.3” * + (и-1).2” +3"* =5.3"*+(п-1.2”. 

Лемма доказана. 
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Примечание 5. В отличие от алгоритма [3] в предложенном алгоритме БПУ в 
дополнительных секциях (ХАРО,, И ТАРО, , ) не выполняется, что также является 
резервом оптимизации и значительно уменьшает общее число операций сложения 
(вычитания). 

Теорема 1. При последовательном вычислении свертки сложность по числу одно- 
словных операций сложения (вычитания) равна 13.3" ^-3.2” для нахождения основ- 
ных У 2 И дополнительных УАБЬ,., секций. 

Доказательство. Особенностью вычисления элементов У является то, что на 
Шаге 36 используется циклический сдвиг (И(ЁЕ(Йи))- Е(Ги ) ‚ который не может быть 


получен как результат линейных комбинаций ДПУ секций У. Поэтому в У необходимо 
выполнять БПУ в каждой секции полностью на Шаге Зв. Вычисление алгоритма можно 


организовать таким образом, что на каждой итерации 1 = 0, п-3 для каждой секции У 
ВТ, ),)) 


выполняется только один шаг БПУ ((У,) < 
м) < ВН) 


‚ (/),) < ВУ, 


(см. Лемму 1) за исключением секций длины 4. 
В табл. 3 представлено по секциям число операций сложения (вычитания), необ- 
ходимых для завершения одного шага БПУ. На каждой итерации Г оператор \ 


применяется для секций одинаковой длины М =2”". Разбиение на секции необходимо, 
так как после применения оператора И применяется оператор В (бит-инверсная сор- 


тировка), результат которого зависит от длины секции М =2”"". 


Таблица 3 — Зависимость числа операций сложения (вычитания) 


одного шага БПУ для каждой секции У длины М =2""', 1=0,п-3, 


при вычислении сверток длины М = 2", п=3,4,5,6 (Шаги Зви 4) 


т | Шаг № № =8, п =3 т | Ша №, № = 64, п=6 
0 | Шаг3Зв 8 0 | Шаг}Зв 64 
Шаг4 |444 Т | ШагЗв | 323232 
Шаг4 |444 > |ПИагЗв | 16.1616. 16.1616, 161616 
} №164 3 | ШагЗв |888 888 888. 
8.8.8.888. 883. 
в 8.8.8.888. 888 


1 | Шаг3Зв 8,8,8 
Шаг 4 4,4,4.4.4.4,4.4,4 
Шаг 4 4.4.4.44. 4.4.4.4 


Шаг4 |44.4.4.4.4, 4.4.4.4.4.4, 
4,4.4,4.4.4, 4.4.4.4. 4.4, 4.4.4 
4.4.4.444, ААА АД, 


№М = 32, п=5 ДА, ААА, 4 АД 
0 [ ШагЗв | 32 4.4.4.4.4.4, 4.4.4.444, 
т | ШагЗв | 16.16.16 4.4,4.4.4,4, 4.4.4.4.4.4, 444: 
2 [ПШагзв [888.888 888 Шаг4 [4444.44.44 АДД, 
Шаг4 | 4.4.4444, 44 ДД, 4.4.4.44. ААА, ААА 
4.4.4.4.4.4, 4.4.4.444, 4.4.45 4.4,4.4.4.4, 4.4.4.44, 
Шаг4 |444444,4444,4, 4.4.4.44. ААА, ААА 
4.4.4.4.4.4, 4.4.4.4.4.4. 4.4.45 4.4.4.44. ЗАДА, Д, 


4,4,4.4.4.4, 4,4,4.4.4.4, 4.4.4.6 


Примечание 6. Пробелы добавлены для удобства восприятия. 
Из табл. 3 видно, что на последующей итерации (Шаг Зв) длина секций умень- 
шается в два раза и число секций увеличивается в три раза, следуя методу Питасси. 
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Общее число операций сложения (вычитания), необходимых для пошагового вычис- 
ления БПУ (только Шаг Зв) в каждой секции, может быть получено как сумма гео- 
метрической прогрессии по следующей формуле: 


а (== 1+1 , РЫНКА, 
Оп зв (1); = 2". и ао 
1-4 2 


+ < 
где Ош, (Г. ); — сумма числа операций сложения (вычитания) над элементами 


У, по 1-ю итерацию включительно. 
С учетом предыдущей формулы общее число операций сложения (вычитания) над 
элементами У на Шаге Зв по завершении итерации {=п-3 может быть выражено 
+ _е п-2 п-+1 
как Ош. + (7 „)=8.3“-2 прип>2. 
На Шаге 36 длина У увеличивается на каждой итерации по } и по 7. Тогда для 


нахождения остальных элементов (кроме исходной начальной секции длины М = 2”) 
о > 

необходимо 4-3” ^ -—2" операций по аналогии с Х. По завершении Шагов 2 и За-Зд 

длины Х и У 


4.3"? 
УАРО 


31-2 


—2 > 
2 авны. С учетом 3" операции сложения для нахождения 
4.3 


на Шаге 4 общее число операций сложения (вычитания) основных 7, „, и 


дополнительных ТАРО, секций” будет следующим: 


0 ое , ТАРО, , ) = О, 36 НЕ ) + О, Зв (У, „> ) + Оса (ТАВРО,, ) . 
0*(У, „‚,УАБР,,.) = (4.3"? —2")+(8.3"2 2" +3"? =13.3"2 3.2". 


Теорема доказана. 
Теорема 7 При последовательном вычислении свертки сложность по числу опе- 


аций сложения (вычитания) равна 10.3"? +(и-2).2” для нахождения В... 
р р 4.3 


Доказательство. Особенностью вычисления КЮ „2 Является то, что нет необхо- 


ДИМОСТИ ВЫЧИСЛЯТЬ БПУ меньших сверток в основных секциях по аналогии с Х. 


Вычисляется БЬПУ только начальной основной секции (К о) ‚ используя свойство 


сложения результатов БПУ векторов длин М и М/2 , доказанное в Лемме 2. Значения 
секций меньшей длины М/2 добавляются последовательно к секциям длины М таким 


образом, что после вычисления БПУ начальной основной секции ((К’_„)о) результат 


=2” 
начальной секции будет содержать корректировку, как если бы БПУ меньших секций 
были вычислены и добавлены к секциям большей длины. 

Общее число операций сложения (вычитания) на Шаге 96 (табл. 4), необходимых 
для подготовки вычисления БПУ каждой секции, может быть получено как сумма 
геометрической убывающей прогрессии по следующей формуле: 


ты = 1 , , Пе В 2 

Ошилов (Кр), = 8-37. |, Т=4. 324,1 =0,п-З,9=5, 
1-4 3 

где О, 5 (В+), — сумма числа операций сложения (вычитания) над элементами 


К ситерации 0 по 1 включительно. 
Т отражает число элементов секций, которые были откорректированы значе- 
ниями меньших секций на итерации { Шага 96. 
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Таблица 4 — Итерационная обработка К, „., (Шаг 96) 
перед вычислением ОБПУ при нахождении сверток 


длины М =2", п=3,4,5,6 (число операций сложения и вычитания) 


1 №=8. п=З 

0] +4, 4.' 

1 № =16, п =4 1 № = 64, п=б 

О | -+4,-4, +44, +44. О | +4, 4, +44, +44, +44, +44, +44, +44, +44, +44, 
1 

1 


+8 8.7 +4,—4, +44, +4—4, +44, +44, +44, +44, +44, +44, 

№М=32, п=5 +4, 4, +44, +44, +44, +44, +44, +44, +44, +441 
Вова 
4—4 4—4 4—4 ) ы. ) ) ) ) ) ) ) р ) ) ) ) ) ) * 

. Ноа в. +16, 16, +16, 16, +16, 16/7 
, , , ) , , 7 

+44, +44, +4. 47 31 +32, —32. 

1 | +8,-8, +8, 8, +88. 

+1616." 


Примечание 7. Пробелы добавлены для удобства восприятия. Знаки «+» и «—» 
обозначают число операций сложения и вычитания соответственно по секциям. 

Общее число однословных операций сложения (вычитания) над элементами К 
на Шаге 96 по завершении итерации {=п-—З3 может быть выражено формулой 


От: 96 (К) = 8 : — те р при и > 2 * 


—2 > —2 > 
С учетом 3” операций сложения, 3" ^ операций вычитания на Шаге 8 и п.2” 
операций сложения (вычитания) на Шаге 10 для вычисления ОБПУ общее число 
операций сложения (вычитания), необходимых для вычисления К , примет вид: 


0* (К ) — ре 8 (К ) + О 96 К ) + О, 10 ((К» №5) . 
О (Ва (2 в ) -. (8 ОЕ ) + ("-2" ) =10.3"2 +(и-2).2”. 


Теорема доказана. 
Теорема 3. При последовательном вычислении свертки общая сложность ПО ЧИСЛУ 


> —2 1 
однословных операций сложения (вычитания) равна 28.3" +(п-3)-2”". 
Доказательство. Общее число операций сложения (вычитания) имеет вид: 


О" = Ох +0, + Ок, 


где Ох, Ох, Ох — число операций сложения (вычитания) при обработке Х, Уи К. 


При подстановке значений, полученных в Лемме 1 и Теоремах 2, 3, приходим к 
следующему выражению: 


0* о +и-1.2”) + (13-3"?-3.2" + (10-3? +(и-2).2"). 


После суммирования приходим к искомому выражению. Теорема доказана. 

Число операций при параллельном вычислении алгоритма. На данное время час- 
тота процессора достигает своего физического предела. В то же самое время требования 
по времени выполнения операций над большими числами усиливаются. Кластерные 
решения позволяют достигать требуемых условий по быстродействию, но являются 
дорогостоящими, что не дает возможности широкого применения. Одним из решений 
является интегрирование большого числа ядер на одном кристалле, что удешевляет 
аппаратную часть решения. Такие системы используют потоковые процессоры, особен- 
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ностью которых является параллельное выполнение однотипной операции над большим 
массивом данных. Примером таких плат можно привести графические ускорители 
компаний МУШГА и АМ (последние модели: СеРогсе СТХ 580 с 512 потоковыми 
процессорами, Кадеоп НО 6990 с 3072 потоковыми процессорами). Изначально гра- 
фические ускорители (ОРЦ — Огарыс Ргосеззог Чпи) разрабатывались для решения 
задач быстрой обработки графической информации, которые могли быстро выполнять 
параллельно небольшой набор арифметических операций над векторами и массивами. 
Со временем графические ускорители переросли задачи графической обработки, набор 
команд вырос до такой степени, что ускорители стали называть ОРОРО (Сепега1 
Ригрозе Отарыс Ргосеззог Чи — графический ускоритель общего назначения). Методы, 
эффективные при последовательном выполнении, не эффективно использовать при 
реализации на параллельных (потоковых) процессорах графических ускорителей. 
Последовательные методы используют большой набор арифметических операций и 
функций на разных шагах алгоритма, что делает их сильно зависимыми друг от друга и 
требует ожидания выполнения текущего шага перед тем, как перейти к вычислению 
следующего шага, что ограничивает число одновременно задействованных потоковых 
процессоров. Для использования графических ускорителей необходимы новые алгорит- 
мы, которые распределяют вычисления таким образом, чтобы задействовать максимально 
свободные процессоры, что в свою очередь уменьшает общее число операций, выпол- 
ненных каждым из процессоров, и значительно уменыпает общее время выполнения 
операции, реализуемой данным алгоритмом. При разработке таких алгоритмов необходи- 
мо находить баланс между разбивкой на число таких шагов, каждый из которых имеет 
однотипные независимые друг от друга операции, и числом операций на каждом шаге. 

Особенностью представленного алгоритма является то, что все операции в итера- 
ции по / являются независимыми. Если число параллельных (потоковых) процессоров 


превышает число операций алгоритма, необходимых для завершения итерации 1, то 
достаточно одной операции (такта) потоковых процессоров для выполнения итерации 1. 
Если шаг алгоритма состоит из нескольких итераций по Г (например п-2 итерации) 
и число задействованных потоковых процессоров превышает (или равно) число опера- 
ций на каждой итерации 1, то время выполнения данного шага будет равно времени 
выполнения п-2 операций потоковых процессоров с учетом того, что все процес- 
соры работают параллельно. Продолжая данные рассуждения, рассмотрим сложность 
по числу операций сложения (вычитания) и умножения каждого шага предложенного 
алгоритма при параллельном выполнении в следующей теореме. Для удобства будем 
считать, что освободившиеся процессоры не начинают вычислений по итерации #+1 
до тех пор, пока не выполнится последняя операция на итерации 1. Перед нахождением 
оценок сложности при параллельной модели вычислений рассмотрим следующую лемму. 

Лемма 5. Сложность по числу операций при параллельном вычислении [ ите- 
раций на Р (Г << Р) процессорах может быть получена на основе сложности по числу 
операций при последовательном вычислении с учетом того, что процессоры не начинают 
новую итерацию, пока не закончена текущая итерация, используя следующее выражение: 


О О мини + [ 
парал.вычисление Г Р е 


[-1 
где О ионы — уз О, ‚ посл.вычисление _ общее число операций при последовательном 
1=0 


вычислении [ итераций, каждая их которых поддается распараллеливанию. 
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Доказательство. Максимальное число операций, выполненное одним из парал- 
лельных Р процессоров, на [ итерациях может быть представлено в следующем виде: 


— 
[6 О, ‚ посл.вычисление 
посл.вычисление 
1=0 Р 
Изменим предыдущую формулу таким образом, чтобы использовать округление 
к меньшему числу вместо округления к большему числу, ЧТО ПОЗВОЛИТ избежать ис- 
пользования знака суммы: 


11| О. +Р-1 .(Р— 
О, посл.вычисление > ни ы\ 1 (Р 19) | 
0 Р Р Р 


би „вычисление ый 
= 


Если [ << Р , то приходим к искомому выражению. Лемма доказана. 

Теорема 4. При параллельном вычислении свертки А» < Ху ®У, длины М№ = 2" 
на Р процессорах сложность по числу операций однословного сложения, вычитания 
33.3"? +(п-3).2”Н 

Р 


Доказательство. Число операций при параллельном вычислении можно пред- 
ставить в виде: 


Ош... ›нз(Х, ХАБР) = Ош, (Х)+ Ош, > (Х) + Ош, (ХАБ), 
Ош, зв. (У, УАРР) = Ощ,, зв (Г) + Ош, зь (Г) + Ош, (ТАБ), 
Ош. в.в (К) = Ош. в (К) + Ош. в (В) + Ош,.ю (К), 
где О. (Х), О, .(Х), О, (ХАБЬ) - число операций на Шагах 1,2 и 5 для 
Х, ХАБ; Ор, 5 (У), Ош, (т), От, .(ТАБЬ) - число операций на Шагах 36, Зви 


4 для У, УАРО; Он, (ВЮ), О, в (Ю), Он, , (В) — число операций на Шагах 8, 96 и 


10 для РК. 
На Шаге 36 на одной итерации по ] элементы добавляются к У на основе эле- 


и умножения равна О*” < | | +6и—4. 


ментов секции ((У„,),) , которая модифицируется на Шаге Зв, поэтому Шаги 36 и Зв 


являются зависимыми. При параллельном вычислении Шагов 36 и Зв нельзя гаран- 
тировать, что элементы добавятся к У до того, как секция будет модифицирована. 
Поэтому считаем, что Шаги Зв и 36 выполняются последовательно и представляют 


отдельные итерации. Выражения г,,,, < ,„„, — га4Ч,, Г,„з <, „з + ГАЯ, на Шаге 8 


не зависят друг от друга, поэтому они могут быть вычислены в одной итерации. 


1+3 


Таблица 5 — Число операций и итераций на Шагах 1, 2, 5, 36, Зв, 4, 8, 96, 10 
при последовательном вычислении Х, ХАРО ‚, У, УАРО, К 


Х, ХАРО У, УАРО К 


ы т т Ите- я 
о а 
Операций Итераций Операций раций Операций 


2 п-2 ДЗ ый Зв п? о 96 п? 0: 
5 [1 3"-2 4 |1 3"-2 10 п и.2” 
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С учетом Леммы 5 и табл. 5 оценки для параллельной модели вычислений можно 
представить в виде: 


Ош. 1, из(Х, ХАББ) а на) 

Р Р Р 
ОиьиеаВВ) < м +" .. и в 2 =] 
| р Р Р 
Ога, 95 о (®) |259 ина) 


р 5.3"? 
© +1. 


После группировки приходим к выражениям: 


п-2 п 
5.3" +(т-1.2 [зн 
Р 


От. ›,з(Х, ХАБЬ) < 


п-2 _ ‚Эт 
0. Ар) < - В ре [2-3 


Е 10.3 + п-2 нат ы 59 
о < Е | 


После суммирования всех выражений приходим к искомому выражению. Теорема 
доказана. 

Тестовый пример вычисления свертки длины М =16. В табл. 6 считается, что 
индексирование в векторах начинается с нуля и элемент с нулевым индексом распо- 
ложен слева. Длина одного разряда равна © = 32 бит. 


Таблица 6 — Пример вычисления свертки предложенным алгоритмом 
при М =16, п=4 


Шаг № Г, ] Значение вектора после Шага № на итерации по Т, ] 
Шаг 0 Хв=1,2,3,4,5,6,7,8,0,0,0,0,0,0,0,0.1 

У ‚=0,0,0,0,0,0,0,0,8,7,6,5,4,3,2,1.^ 
Шаг | ((ЖХв)о)=36,36,16, 16, 8, 8,0,0, 4, 4,0,0,0,0,0,0 


Шаг2 |1=0, ]=0 |Х,,=36,36, 16, 16, 8, 8,0,0, 4, 4,0,0,0,0,0,0,40,40; 16, 16, 8, 8,0,0 
Шаг2 |1=1, ]=0 |Х,,=36,36, 16, 16, 8, 8,0,0, 4, 4,0,0,0,0,0,0,40,40,; 16, 16, 8, 8,0,0, 
44,44; 16, 16 

Шаг? |1=1,]=1 |Х,, =36,36, 16, 16, 8, 8,0,0, 4, 4,0,0,0,0,0,0,40,40; 16, 16, 8, 8,0,0, 
44,44; 16, 16, 4, 4,0,0 

Шаг2 |1=1, ]=2 | Ху =36,36, 16, 16, 8, 8,0,0, 4, 4,0,0,0,0,0,0,40,40,; 16, 16, 8, 8,0,0, 
44,44; 16, 16, 4, 4,0,0,48,48, 16; 16 

Шаг 36 |1=0, ]=0 | У,,=0,0,0,0,0,0,0,0,8,7,6,5,4,3,2,1,0,0,0,8; 2; 2, 2,2 

Шаг3Зв | 1=0, ]=0 | У,,=0,0,0,0,15,11,7,3,0,0,0,0,1,1,1,1,0,0,0,8; 2, 2, 2, 2 
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Продолж. табл. 6 


Шаг 36 |{=1, ]=0 | У,,=0,0,0,0,15,11,7,3,0,0,0,0,1,1,1,1,0,0,0,8, 2, 2, 2; 2,0,15, 8; 7 

Шаг3в | {=1, }= У, =0,0,26,10,0,0,4,4,0,0,0,0,1,1,1,1,0,0,0,8, 2, 2; 2, 2,0,15, 8, 7 

Шаг 36 | {=1, ]=1 | У, =0,0,26,10,0,0,4,4,0,0,0,0,1,1,1,1,0,0,0,8, 2, 2, 2; 2,0,15, 8, 7,0,1,0, 1 

Шаг3в | {=1, }= У, =0,0,26,10,0,0,4,4,0,0,2,2,0,0,0,0,0,0,0,8, 2, 2, 2; 2,0,15, 8, 7,0,1,0, 1 

Шаг 36 | 1=1, ]=2 | У,,=0,0,26,10,0,0,4,4,0,0,2,2,0,0,0,0,0,0,0,8, 2, 2, 2; 2,0,15, 8, 7,0,1,0, 1, 
0, 2,0,2 

Шаг Зв | 1=1, ]=2 | У,,=0,0,26,10,0,0,4,4,0,0,2,2,0,0,0,0,0,8,; 4; 4,0; 8,0,0,0,15; 8, 7,0,1,0, 1, 
0, 2,0,2 

Шаг4 У, =36, 36,16, 16,8, 8,0,0,4, 4,0,0,0,0,0,0,0,16, 8, 8, 8, 8,8,8, 
0,30, 16; 14,0,2,0, 2,0, 4,0,4 

Шаг5 ХА, =52, 8, 4,0,56, 8,60, 4,64 УАОШ, = 52, 8, 4,0,8,0,16,0,0 

Шагб К =2592, 2592, 512,512, 128,128,0,0, 32,32,0,0,0,0,0,0,0,1280,256,256, 
128,128,0,0,0,2640,512,448,0, 16,0,0,0; 384,0, 128 

Шаг 7 КАР, = 2704,64, 16,0,448,0,960,0,0 

Шаг 8 К =2592,112, 512, 2192, 128,64,0,64; 32,16,0,16,0,0,0,0,0,832,256,7104, 
128,128,0,0,0,1680,512,1408,0, 16,0,0,0; 384,0; 128 

Шаг 96 | 1=0 К, =2592,952, 256, 1488, 128, 776, 256, 640, 32,8,0,16,0,8,0,0, 
0,640,256,640,128,320,0,64 

Шаг 96 |1=1 Кв =2592,1272; 128, 1168, 64, 616, 256, 608, 32, 312; 128, 304, 64, 
152,0; 32 

Шаг 10 Кв =0,64,112,145,164,170,164,147,120,84,56,35,20,10,4,1.* 


Примечание 8. Результат вычисления свертки, взятый в обратном порядке, равен 
произведению двух восьмиразрядных чисел, равных (1,2,3,4,5,6,7,8). Входные пара- 
метры длины №/2 могут быть преобразованы несложным образом так, что результат 
циклической свертки длины М будет равен произведению двух восьмиразрядных чи- 
сел [3]. Программная реализация (хх3Ё\ма1516и5°) алгоритма вычисления циклической 
свертки на языке программирования АРГ, занимает одну страницу. 


Вывод 


Рассмотрен новый алгоритм вычисления циклической свертки длины № =2" на 
основе быстрого преобразования Уолша (БПУ) для параллельной модели вычислений 
($МО — ше шзиасйоп Маре Раа). Показано, что данный алгоритм позволяет 
уменьшить более чем в два раза число вычислений БПУ, что значительно уменьшает 
общую сложность по числу операций сложения и вычитания по сравнению с [3]. 
В новом алгоритме применены следующие резервы оптимизации: БПУ в дополни- 
тельных секциях не вычисляются, в результирующих секциях вычисляется только одно 
ОБПУ длины М =?” (за счет оригинального использования свойства корректировки 
сигнала длины М значениями сигнала длины М/2 перед вычислением ОБПУ боль- 
шего сигнала). Метод проиллюстрирован на реализации сверток длины 4 и 8 в общем 
виде, приведена схема вычисления свертки длины 8. Приведен тестовый пошаговый 
пример для вычисления циклической свертки длины № =16 предложенным методом. 
В виде лемм и теорем приведены оценки сложности по числу операций при парал- 
лельном и последовательном вычислении. 
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РагаПе! Сотршаноп А1веотийт ют Сопуошноп 

Треге 15 а пе\ сотршаНоп а|>огИ ии Рог сусИс сопуоаНоп оЁ еп ЛМ=2” Ъазе4 оп 
Раз \а1$В гапзРогтаноп (Е\УТ) ш рагаПе] то4е! ($ПМО — Зше шзиасйоп Мёар!е 
Ра). ТБе юа! питбег оЁ Е\/Т$ ш пе\ аеогифт 1$ гедисе тоге ап \\оГо14 фаЕ де- 
стеазез Фе питбег оЁ зше ргес1$1оп ад41оп$ ап4 заЫгасйоп$ оп зедиепна| сотриай- 
оп. ТБеге аге зеуега| аррПе оритлтайопз$: Е\УТ$ аге по сопрще4 т а441@опа| зесйоп$, 
феге 1$ ошу опе ЕУИТ оЁ 1епо М№=2” ш гези те зесйопз. ТВе 1а5ё ориптихайоп изез фе 
Геасиге оЁ рге-сотршаНопа| ааиазитепте оЁ пи-Ч>и уаше оЁ 1епо@ М Бу шш@-9121 
уае оЁ еп @ М/2 тю зе Фе зит оЁ Е\УТ$ Бой ши -Че уаез Базе оп сотршайоп 
ог опе РУУТ пы Я-Феи уаше оЁ еп М. 

ш Фе агафе, Фе пе\у тефо4 оф зеуега! Е\Т$ сотршайоп ш рагаПе] 15 аезспЪеч. 
Тре сотрщайоп свете Гог сопуо@оп оЁ еп 8 1$ зВо\п. ТЬе орегабюг \\ оп Фе 
зспете 1$ аррпеа Гог Бой Е\УТ$ оЁ ]еп2 4 ап4 8 а Фе зате ите оп рагаПе| сотриа- 
Поп. 

Тре тефо4 оЁ сете сотр]ехИу оЁ рагаПе! сотршайоп Базе4 оп сотр]ехИу оЁ 
сопзедиепиа| сотрщаноп 1$ 4езспфеа. У/ИЬ изе о? 11$ тефо4, сотр!ехипу о? зедиепиа1 
ап рагаПе] сотршаНоп$ 1$ зЗВо\п. 


Статья поступила в редакцию 31.05.2012. 
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